CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景
CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。
在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。
几年前,由于元宇宙的热潮,几家专注于数字虚拟人的初创公司应运而生。虽然这股热潮已经消退,但生成式人工智能为虚拟人注入了新的活力,因为创建不同的虚拟身份变得更加容易。
在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything,针对现有问题引入了一种交互式的点云结构化潜空间,实现了可扩展的、高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。
来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员,提出了一个全新的多模态Few-shot 3D分割设定和创新方法。无需额外标注成本,该方法就可以融合文本、2D和3D信息,让模型迅速掌握新类别。
Intangible,现已获得 400 万美元的种子资金支持,提供了一款 AI 驱动的创意工具,让用户通过文本提示创建 3D 世界概念,助力跨行业创意专业人士。a16z Speedrun、Crosslink Capital 和几位天使投资者领投了本轮融资。
据ZP独家获悉,半图科技(SemiGraph)近日完成了一轮数千万人民币的天使轮融资,全球知名投资机构IDG资本独家投资。据了解,半图科技正式成立于2024下半年,致力于通过创新的技术推动AI应用领域的变革,尤其聚焦于AI技术在游戏、内容、情感交互等领域的深度应用。此次融资的成功为公司3D动画大模型底层技术的突破提供了强有力的资金支持,并有望加速其产品和技术的市场落地。
设定一个3D场景,你便可以用文字编织你的剧情。一句话,就能让两个人激烈争吵。来自北京航空航天大学、香港中文大学(深圳)、悉尼科技大学、中山大学等高校的研究者提出Sitcom-Crafter。成果已被ICLR 2025会议接收。
就在刚刚,腾讯混元3D全新版本上线了。这一周内我在混元3D、Tripo3D、Meshy这三家AI 3D里跑了上百次案例,在文生3D、图生3D、纹理材质生成、3D工作流四个维度,让小白也能最大程度体验到AI 3D能做到什么,以及将如何影响AI生图、AI视频的工作流。
春节前夕,腾讯又发AI大礼包。
早上MiniMax上线TTS,字节上线AI编程Trae;下午字节全量上线豆包实时语音;晚上DeepSeek开源R1性能直接对标OpenAI o1,然后Kimi的k1.5直接正面硬刚。昨天的余温还没过,今天下午,腾讯混元又悄悄开了个闭门发布会,作为混元的老基友,我自然是受邀参加期期不落。